<玩轉大語言模型> 論本地LLM模型部屬

2024 iThome 鐵人賽

DAY 4

生成式 AI

LangChain、RAG、HuggingFace: 玩轉大語言模型系列第 4 篇

16th鐵人賽

nighting

團隊不時以註解遮羞的實習同學

2024-09-18 20:04:36

1052 瀏覽

分享至

繼上一篇將環境布置好後，我們就要開始將本系列文的重點核心 LLM 在本地部屬

看到這個章節的標題，你可能會問，現在的生成式AI在WEB上那麼的方便好用，甚至在某些模型，你還可以直接要求他上網搜尋相關資料，那為何還要將模型部屬至本地?這不是多此一舉嗎?因此在章節開始之前，我們先來談談其中的差異、優劣及限制。

模型本地部屬的好處，我大概會分成三點來談:

資料安全及隱密性
當你在網路上線上使用別人的模型時，你向模型輸入的資料都是透過網路、伺服器在傳輸的，在這之間就會有極大的資安問題，等於說你不可能將機密的文件、資料等餵上去，這時候本地部屬模型的好處就體現出來了，而這也是現在許多機構、企業在做的事情，讓資料只在內網中儲存傳遞，減少資料外流的風險。
模型的掌控、定製
這也呼應到本系列文章的主旨、對於大語言模型的更多用運用。
在網站上直接使用別人的模型，能做的事其實是相對很有限的，若你沒有訂閱他們的plus會員的話，那就更不用說了，token的限制、老舊的模型，許多額外的功能都不能用，經過這些諸多的限制，其實無法發揮出他應該有的更多更多出色的表現。
而在本地運行則直接解放了這些限制，能夠直接、靈活的去進行模型的調整、優化，以及許多額外提升performence的運用。
性能、反應時間
不管在網站上使用別人的模型，或者是用api去call，都會先經過第三方伺服器的資料傳輸，模型跑完後再傳回來，這之間的Run Trip Time若是過長就會大幅影響到使用者的體驗，而會影響到這個RTT的因素又非常多，像是網路的坪寬、那邊伺服器響應是否正常，又或者是你和伺服器的距離，這些都會影響到傳輸的時間。而在本地運行模型則可以直接省去這段時間。
在性能方面，雖然你能夠運行的模型會直接受到自己硬體的限制，不過能夠適當挑選適合本身硬體的模型就能夠有不錯的效果。

本地部屬的缺點? 有何限制?

前面講了那麼多好處，但其實在本地部屬LLM也是有一些顯而易見的限制、缺點的，我認為其中最大、也是最初的限制就是本身的硬體:
你的硬體的效能直接決定了你本機能夠運行的模型種類、大小、效能等等，會影響到的硬體有: GPU、 GPU的VRAM、CPU、RAM、硬碟等等。
再來其實就是技術門檻的問題，想在本地部屬大語言模型涉及了很多的技術，許多的步驟、條件等等，並且要讓模型在本地穩定的運行，產出你期待的結果，還需要許多的調整、嘗試。
總結來說，在本地部屬LLM會需要付出一定的硬體、技術、時間成本。

下一篇就會開始介紹將模型本地部屬的方法以及實際操作!